@ARTICLE{26583204_510537832_2021, author = {А. Ю. Владова and Е. Д. Шек}, keywords = {, машинное обучение, ключевой показатель эффективности, база данных, временной ряд, геолокация, обучение без учителя, торговый представительb2b}, title = {Подготовка данных для машинного анализа ключевых показателей эффективности территориальных менеджеров}, journal = {Бизнес-информатика}, year = {2021}, number = {3 Vol.15}, pages = {48-59}, url = {https://bijournal.hse.ru/2021--3 Vol.15/510537832.html}, publisher = {}, abstract = {      Существенная трансформация операционной деятельности компаний- дистрибьюторов продуктов и услуг обусловлена изменениями в технологии получения и обработки данных. На данный момент работа представителей этих компаний в значительной степени оцифрована: например, автоматически фиксируется время нахождения в дороге, количество и места встреч с клиентами. При этом эффективность работы территориальных менеджеров, не совершающих прямые продажи, по-прежнему вынужденно оценивают с помощью опросов, экспертов и затратных двойных визитов, хотя наличие объемной выборки данных позволяет с помощью статистического анализа выявить как недостаточные, так и завышенные значения показателей эффективности работы. Исходные данные: реляционная база данных, накапливающая информацию о 28 категориальных, количественных, геолокационных и временных параметрах активностей территориальных менеджеров за год. На основе имеющихся данных созданы синтетические признаки (широта и долгота - индекс, регион, улица, дом; по идентификаторам вычислены суммы активностей; по временным признакам определены сезон года, день недели и период суток). Методика проведения статистического анализа включала три стадии: сбор и обработку первичных данных, обобщение и группировку обработанной информации, формулирование статистических гипотез и интерпретацию результатов. Для моделирования уровня искажения информации об активности менеджеров использован вероятностный подход. В результате с помощью построенного облака тегов выделены: наиболее популярный сезон для проведения рекламных кампаний; наиболее продуктивные отделы и территориальные представители; дни недели, на которые приходятся наибольшее количество контактов с клиентами. Установлено наличие значительного числа записей о проведении встреч в выходные дни. В результате проведенной разведки данных сформулирована статистическая гипотеза о возможности выявления территориальных менеджеров, искажающих количество и параметры встреч. Для выявления скрытых взаимосвязей создан набор синтетических целых, действительных и категориальных переменных. Выявлены сомнительные данные (например, работа в выходные дни или ночью). Полученный обобщенный набор данных сгруппирован по признаку идентификатора активности территориального представителя и построено распределение признака. По каждому территориальному менеджеру просуммированы целые и действительные признаки и выявлены выбросы, характеризующие неэффективную работу или искажение данных. Таким образом, наличие объемной выборки данных об истории перемещений и активностях позволяют по косвенным признакам оценить эффективность работы территориальных менеджеров дистрибьюторской компании.}, annote = {      Существенная трансформация операционной деятельности компаний- дистрибьюторов продуктов и услуг обусловлена изменениями в технологии получения и обработки данных. На данный момент работа представителей этих компаний в значительной степени оцифрована: например, автоматически фиксируется время нахождения в дороге, количество и места встреч с клиентами. При этом эффективность работы территориальных менеджеров, не совершающих прямые продажи, по-прежнему вынужденно оценивают с помощью опросов, экспертов и затратных двойных визитов, хотя наличие объемной выборки данных позволяет с помощью статистического анализа выявить как недостаточные, так и завышенные значения показателей эффективности работы. Исходные данные: реляционная база данных, накапливающая информацию о 28 категориальных, количественных, геолокационных и временных параметрах активностей территориальных менеджеров за год. На основе имеющихся данных созданы синтетические признаки (широта и долгота - индекс, регион, улица, дом; по идентификаторам вычислены суммы активностей; по временным признакам определены сезон года, день недели и период суток). Методика проведения статистического анализа включала три стадии: сбор и обработку первичных данных, обобщение и группировку обработанной информации, формулирование статистических гипотез и интерпретацию результатов. Для моделирования уровня искажения информации об активности менеджеров использован вероятностный подход. В результате с помощью построенного облака тегов выделены: наиболее популярный сезон для проведения рекламных кампаний; наиболее продуктивные отделы и территориальные представители; дни недели, на которые приходятся наибольшее количество контактов с клиентами. Установлено наличие значительного числа записей о проведении встреч в выходные дни. В результате проведенной разведки данных сформулирована статистическая гипотеза о возможности выявления территориальных менеджеров, искажающих количество и параметры встреч. Для выявления скрытых взаимосвязей создан набор синтетических целых, действительных и категориальных переменных. Выявлены сомнительные данные (например, работа в выходные дни или ночью). Полученный обобщенный набор данных сгруппирован по признаку идентификатора активности территориального представителя и построено распределение признака. По каждому территориальному менеджеру просуммированы целые и действительные признаки и выявлены выбросы, характеризующие неэффективную работу или искажение данных. Таким образом, наличие объемной выборки данных об истории перемещений и активностях позволяют по косвенным признакам оценить эффективность работы территориальных менеджеров дистрибьюторской компании.} }